Contribuições da Campanha Presidencial America em 2016, estado do TX por Daniel Teobaldo

Introdução

Para este projeto escolhi uma das bases de dados sugeridas pela Udacity: Financiamento da Campanha Presidencial dos EUA de 2016.

A idéia inicial era de se fazer a analise do estado de NY, no entanto havia uma discrepancia muito grande nas contibuições uma vez que o comite “HILLARY VICTORY FUND” foi responsável por 45% do valor financiado referente a este estado em apenas 23 das 649.460 contribuições registradas, sendo todas elas com valores acima de U$ 100.000. Este foi o único contribuinte que realizou contribuições acima deste valor. A maior contribuição abaixo deste valor de U$ 100.000 foi de U$ 11.816,25. Poderia ser feita uma remoção dos outliers, porém esta ação traria um dataset que não representa o conjunto de dados do estado.

#Verifica a distribuição dos valores de controbuições do dataset
summary(USACampaign$contb_receipt_amt)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##   -10100       15       27      264      100 12777706
USACampaign$contb_receipt_amt <- abs(USACampaign$contb_receipt_amt)
USACampaign$contb_range <- cut(USACampaign$contb_receipt_amt, c(0,100,500,2000,50000,max(USACampaign$contb_receipt_amt)))

#Verifica contribuintes com contribuições superiores a U$ 100.000
USACampaign[USACampaign$contb_receipt_amt >= 100000,]$contbr_nm
##  [1] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [3] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [5] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [7] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
##  [9] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [11] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [13] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [15] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [17] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [19] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [21] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [23] HILLARY VICTORY FUND - UNITEMIZED
## 119407 Levels:  BLACKMORE, ANDI POTAMKIN ... ZYWICZYNSKI, JERRY MR.
#Valor máximo abaixo de U$ 100.000
max(USACampaign[USACampaign$contb_receipt_amt < 100000,]$contb_receipt_amt)
## [1] 11816.25
sum(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",]$contb_receipt_amt)/sum(USACampaign$contb_receipt_amt)*100
## [1] 45.12158
dim(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",])
## [1] 23 21
USACampaign$hillary_comitte <- ifelse(USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED", "Y", "N")

Quando comparamos as contribuições do contribuinte HILLARY VICTORY FUND - UNITEMIZED e os demais contribuintes, vemos que o valor total das contribuições são próximos, porém as quantidade de contribuições da comite da Hillary são significamente menores.

Abaixo uma comparação entre a quantidade de contribuições realizadas por faixa de valor versus o total arrecadado.

É possível notar também o impacto das contribuições de valores elevados quando comparamos os quartils dos valores com e sem estas contribuições, para cada candidato.

Esta discrepancia prejudicaria a avaliação das contribuições entre os candidatos e restringiria as analises dos dados. Desta forma optei por fazer a analise das contribuições feitas pelos eleitores do estado do TX, que traz uma distribuição mais homogenea nas contribuições.


Analise do dataset do estado do Texas

Inicamos aqui a análise do dataset do estado do Texas (TX). Algumas verificações simples nesta base de dados nos aponta necessidade de tratamento das informações. Este tratamento será feito em um script a parte, em python tratarDados.py. Maiores detalhes sobre este tratamentos pode ser visualizado no arquivo Tratamento de dados.md.

## [1] 12084    19
## [1] 24 19
## 
##        DALLA       DALLAA       DALLAD      DALLALS       DALLAS 
##            1            1            4            1        40656 
## DALLAS TEXAS    DALLAS TX      DALLAS,   DALLAS, TX      DALLAS9 
##            2            1            1            1            1 
##     DALLASTX      DALLASV      DALLLAS 
##            1            2            1
## [1] 16600
##                  RETIRED                                      NOT EMPLOYED 
##                   142978                    29745                    24405 
##                   LAWYER            SELF-EMPLOYED                  TEACHER 
##                    17517                    13267                    13119 
##                HOMEMAKER                 ENGINEER                PHYSICIAN 
##                    11325                     9016                     8817 
##                    SALES                    NURSE               CONSULTANT 
##                     6943                     5613                     5519 
##              REAL ESTATE                  MANAGER               ACCOUNTANT 
##                     5327                     4851                     4054 
##       SOFTWARE DEVELOPER                      CEO                PRESIDENT 
##                     2896                     2750                     2386 
##        SOFTWARE ENGINEER                       RN                  STUDENT 
##                     2374                     2372                     2357 
##                      CPA                EXECUTIVE                 EDUCATOR 
##                     2081                     2008                     1866 
##          PROJECT MANAGER                 DIRECTOR                   WRITER 
##                     1710                     1472                     1425 
##                  RANCHER             TRUCK DRIVER                MARKETING 
##                     1409                     1403                     1279 
##           OFFICE MANAGER                INSURANCE                    PILOT 
##                     1262                     1224                     1167 
##               PHARMACIST                   ARTIST            ADMINISTRATOR 
##                     1118                     1096                     1049 
##             PSYCHOLOGIST                  ANALYST                GEOLOGIST 
##                     1049                     1034                     1030 
##                 INVESTOR             CONSTRUCTION                   FARMER 
##                     1021                     1005                      977 
##               CONTRACTOR                LIBRARIAN                PARALEGAL 
##                      970                      966                      945 
##                  REFUSED                      CFO            SOCIAL WORKER 
##                      922                      901                      880 
##           VICE PRESIDENT                ARCHITECT                  DENTIST 
##                      859                      857                      843 
##               MANAGEMENT                 DISABLED                       IT 
##                      806                      805                      777 
##                  FINANCE                   DRIVER               BOOKKEEPER 
##                      754                      739                      720 
##                   PASTOR                 MUSICIAN              INVESTMENTS 
##                      716                      715                      704 
##              ELECTRICIAN                   BANKER            SALES MANAGER 
##                      665                      659                      659 
##               IT MANAGER        FINANCIAL ADVISOR                 DESIGNER 
##                      652                      641                      640 
##                 MINISTER             VETERINARIAN             PHOTOGRAPHER 
##                      616                      615                      605 
##          GENERAL MANAGER          PSYCHOTHERAPIST         FLIGHT ATTENDANT 
##                      573                      573                      572 
##             GEOPHYSICIST         GRAPHIC DESIGNER                SECRETARY 
##                      572                      569                      567 
##                SCIENTIST               TECHNICIAN             ENTREPRENEUR 
##                      564                      534                      523 
##         PROPERTY MANAGER         BUSINESS ANALYST               SUPERVISOR 
##                      514                      513                      499 
##                   RETAIL                EDUCATION                    CLERK 
##                      484                      480                      477 
## ADMINISTRATIVE ASSISTANT          LEGAL ASSISTANT                 BUSINESS 
##                      471                      470                      469 
##       PHYSICAL THERAPIST      ELECTRICAL ENGINEER          HUMAN RESOURCES 
##                      468                      456                      456 
##                  LANDMAN                  BANKING                 SOFTWARE 
##                      454                      449                      447 
##       EXECUTIVE DIRECTOR      EXECUTIVE ASSISTANT          ACCOUNT MANAGER 
##                      440                      437                      429 
##     SALES REPRESENTATIVE                  PARTNER                  (Other) 
##                      418                      403                   168005 
##                     NA's 
##                      139
## Length  Class   Mode 
##      0   NULL   NULL
## [1] 548372     28
##  [1] "cmte_id"                "cand_id"               
##  [3] "cand_nm"                "contbr_nm"             
##  [5] "contbr_city"            "contbr_st"             
##  [7] "contbr_zip"             "contbr_employer"       
##  [9] "contbr_occupation"      "contb_receipt_amt"     
## [11] "contb_receipt_dt"       "receipt_desc"          
## [13] "memo_cd"                "memo_text"             
## [15] "form_tp"                "file_num"              
## [17] "tran_id"                "election_tp"           
## [19] "X"                      "city"                  
## [21] "lon"                    "lat"                   
## [23] "party"                  "cmte_nm"               
## [25] "cmte_dsgn"              "contb_receipt_dt_day"  
## [27] "contb_receipt_dt_month" "contb_receipt_dt_year"
## 'data.frame':    548372 obs. of  28 variables:
##  $ cmte_id               : Factor w/ 26 levels "C00458844","C00496034",..: 7 16 16 8 7 7 16 16 7 16 ...
##  $ cand_id               : Factor w/ 25 levels "P00003392","P20002671",..: 1 23 23 12 1 1 23 23 1 23 ...
##  $ cand_nm               : Factor w/ 25 levels "Bush, Jeb","Carson, Benjamin S.",..: 4 23 23 20 4 4 23 23 4 23 ...
##  $ contbr_nm             : chr  "MILLARD, SUSAN C." "SELLERS, CHRISTINE" "SELLERS, DAVID" "LEONE, MICHELLE" ...
##  $ contbr_city           : chr  "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
##  $ contbr_st             : chr  "TX" "TX" "TX" "TX" ...
##  $ contbr_zip            : chr  "784112213" "76108" "77318" "761826749" ...
##  $ contbr_employer       : chr  "N/A" "BAYLOR HEALTHCARE SYSTEM" "RETIRED" "NOT EMPLOYED" ...
##  $ contbr_occupation     : Factor w/ 17309 levels ""," COUNSELOR",..: 13427 10139 13427 10106 14283 13859 1 1 11331 7205 ...
##  $ contb_receipt_amt     : num  37.1 127.1 80 15 50 ...
##  $ contb_receipt_dt      : Date, format: "2016-04-16" "2016-09-28" ...
##  $ receipt_desc          : chr  "" "" "" "" ...
##  $ memo_cd               : logi  NA NA NA NA NA NA ...
##  $ memo_text             : logi  NA NA NA NA NA NA ...
##  $ form_tp               : chr  "SA18" "SA18" "SA18" "SA17A" ...
##  $ file_num              : int  1091718 1146165 1146165 1077404 1091718 1091718 1146165 1146165 1091718 1146165 ...
##  $ tran_id               : chr  "C4725643" "SA18.90357" "SA18.120784" "VPF7BKZGYE4" ...
##  $ election_tp           : chr  "P2016" "G2016" "G2016" "P2016" ...
##  $ X                     : logi  NA NA NA NA NA NA ...
##  $ city                  : chr  "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
##  $ lon                   : num  -97.4 -97.3 -95.5 -97.2 -98.5 ...
##  $ lat                   : num  27.8 32.8 30.4 32.9 29.4 ...
##  $ party                 : chr  "DEM" "REP" "REP" "DEM" ...
##  $ cmte_nm               : chr  "HILLARY FOR AMERICA" "DONALD J. TRUMP FOR PRESIDENT, INC." "DONALD J. TRUMP FOR PRESIDENT, INC." "BERNIE 2016" ...
##  $ cmte_dsgn             : chr  "P" "P" "P" "P" ...
##  $ contb_receipt_dt_day  : logi  NA NA NA NA NA NA ...
##  $ contb_receipt_dt_month: Date, format: "2016-04-01" "2016-09-01" ...
##  $ contb_receipt_dt_year : int  16 16 16 16 16 16 16 16 16 16 ...
##       cmte_id            cand_id                            cand_nm      
##  C00575795:203928   P00003392:203928   Clinton, Hillary Rodham  :203928  
##  C00574624:138799   P60006111:138799   Cruz, Rafael Edward 'Ted':138799  
##  C00577130: 79955   P60007168: 79955   Sanders, Bernard         : 79955  
##  C00580100: 77916   P80001571: 77916   Trump, Donald J.         : 77916  
##  C00573519: 23694   P60005915: 23694   Carson, Benjamin S.      : 23694  
##  C00458844:  8984   P60006723:  8984   Rubio, Marco             :  8984  
##  (Other)  : 15096   (Other)  : 15096   (Other)                  : 15096  
##   contbr_nm         contbr_city         contbr_st        
##  Length:548372      Length:548372      Length:548372     
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##                                                          
##                                                          
##                                                          
##   contbr_zip        contbr_employer        contbr_occupation 
##  Length:548372      Length:548372      RETIRED      :142978  
##  Class :character   Class :character                : 29745  
##  Mode  :character   Mode  :character   NOT EMPLOYED : 24405  
##                                        LAWYER       : 17517  
##                                        SELF-EMPLOYED: 13267  
##                                        (Other)      :320321  
##                                        NA's         :   139  
##  contb_receipt_amt  contb_receipt_dt     receipt_desc       memo_cd       
##  Min.   :    0.01   Min.   :2013-10-21   Length:548372      Mode:logical  
##  1st Qu.:   25.00   1st Qu.:2016-02-06   Class :character   NA's:548372   
##  Median :   40.00   Median :2016-04-29   Mode  :character                 
##  Mean   :  175.02   Mean   :2016-04-27                                    
##  3rd Qu.:  100.00   3rd Qu.:2016-08-12                                    
##  Max.   :16600.00   Max.   :2016-12-31                                    
##                                                                           
##  memo_text        form_tp             file_num         tran_id         
##  Mode:logical   Length:548372      Min.   :1003942   Length:548372     
##  NA's:548372    Class :character   1st Qu.:1077404   Class :character  
##                 Mode  :character   Median :1096256   Mode  :character  
##                                    Mean   :1097493                     
##                                    3rd Qu.:1133832                     
##                                    Max.   :1146285                     
##                                                                        
##  election_tp           X               city                lon         
##  Length:548372      Mode:logical   Length:548372      Min.   :-124.03  
##  Class :character   NA's:548372    Class :character   1st Qu.: -97.74  
##  Mode  :character                  Mode  :character   Median : -96.93  
##                                                       Mean   : -97.11  
##                                                       3rd Qu.: -95.47  
##                                                       Max.   : -71.06  
##                                                       NA's   :613      
##       lat           party             cmte_nm           cmte_dsgn        
##  Min.   :24.66   Length:548372      Length:548372      Length:548372     
##  1st Qu.:29.76   Class :character   Class :character   Class :character  
##  Median :30.26   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :30.99                                                           
##  3rd Qu.:32.76                                                           
##  Max.   :46.88                                                           
##  NA's   :613                                                             
##  contb_receipt_dt_day contb_receipt_dt_month contb_receipt_dt_year
##  Mode:logical         Min.   :2013-10-01     Min.   :13.00        
##  NA's:548372          1st Qu.:2016-02-01     1st Qu.:16.00        
##                       Median :2016-04-01     Median :16.00        
##                       Mean   :2016-04-11     Mean   :15.81        
##                       3rd Qu.:2016-08-01     3rd Qu.:16.00        
##                       Max.   :2016-12-01     Max.   :16.00        
## 

O dataset tratado contem 548.396 observações com 29 variaveis. O dataset original (sem tratamento) contém 18 variáveis.

Seção de Gráficos Univariados

É importante realizarmos uma analise sobre a distribuição das contribuições entre os candidatos. Nesta analise já classifiquei os candidatos por partido para identificação, com o intuíto de entender melhor como é a divisão entre as legendas. Para a difinição do partido, consideramos a classificação registrada na base de dados de candidatos obtida no site da FEC.

Nesta análise percebemos que a maior quantidade de doações se concentram nos 4 primeiros candidatos, mas é importante notar que quando ordenamos por valor total arrecadado, existe um inversão nas posições. Devido a essa inversão farei uma análise focada nos 7 candidatos com maior volume arrecada, no lugar de 5 candidatos que era a idéia inicial.

Uma analise mais detalhada desse aspecto será realizada na seção de gráficos bivariados.

## Warning: Removed 26251 rows containing non-finite values (stat_boxplot).

Como esperado, nota-se que a maior parte das contribuições se destinam aos candidatos democratas (DEM) e republicanos (REP), desta forma vamos considerar apenas estes 2 partidos nas analises. É importante percebermos pelo Boxplot que a as contribuições para os candidatos republicanos, no geral, possuem um valor unitário maior que as doações feitas aos democratas. Isto deve trazer um impacto no valor total arrecadado por partido, apesar de ambos possuirem quantidades de contribuições semelhantes. Esta é uma analise a ser feita na seção de Gráficos Bivariados.

Na analise a seguir procurei fazer uma avaliação identificando como foram realizadas as contribuições ao longo do período. Iniciei a analise verificando a distribuição das doações por ano e, em seguida, realizei a analise por mês.

Por fim, foquei no periodo de 2016, que é onde ocorreram a maior quantidade de doações.

##         Min.      1st Qu.       Median         Mean      3rd Qu. 
## "2013-10-21" "2016-02-06" "2016-04-29" "2016-04-27" "2016-08-12" 
##         Max. 
## "2016-12-31"

Na sequencia analisei a distribuição das doações por quantidade. Nesta analiíse foi possível perceber como as contribuições de menores valores são as mais frequentes. Esse já era um comportamento esperado um vez que muitos eleitores não possuem muitos recursos para doar mas procuram ajudar com uma quantidade que esta ao seu alcance.

Para uma analise de um espectro maior de valores, reduzi o binwidth em 10x. Na sequência apliqei uma escala logaritima para exibir melhor o valores com menos doações e reduzi o limite do eixo x com o objetivo de focar nos valores de contribuições mais frequentes, chegando no limite de um quartil de 95%.

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##     0.01    25.00    40.00   175.02   100.00 16600.00

## 95% 
## 700

Abaixo uma comparação entre a quantidade de doações entre as eleições primárias (P2016) e gerais (G2016). Nela vemos que as primárias tiveram mais do dobra de contribuições. Isso pode ser explicado pelo fato de termos mais candidatos, além de um tempo maior para doações.

Para uma melhor visualização de como a quantidade de doações é inversamente proporcional ao valor, decidi classificar os valores de contribuição considerando as seguintes faixas de valores:

Esta classificação também vai nos ajudar a conhecer melhor as características das doações para cada candidato.

O valor de 2.700 foi escolhido por este ser o limite de doações por contribuinte, por etapa da eleição.

Para uma analise com base nas cidades, decidi aplicar um filtro inicial uma vez que existem cerca de 1300 cidades diferentes registradas. Desta forma decidi gerar o histograma apenas para as 30 cidades com maior número de contriuições.

Nesta analise percebemos que as principais cidades do estado então entre aquelas com mais números de contribuição, o que não surpreende já que se espera uma relação direta entre a quantidade de doações e a população.

Análise Univariada

Qual é a estrutura do conjunto de dados?

O conjunto de dados possui 548372 registros de contribuições para o estado de TX, com 29 atributos no arquivo tratado e 18 no arquivo original.

Quais são os principais atributos de interesse deste conjunto de dados?

A minha intenção neste trabalho é analisar como foi a distribuição de doações para os candidatos. Para esta análise, as principais atributos deste conjunto de dados são os candidatos (cand_nm), os valores das contribuições (contb_receipt_amt e contb_receipt_amt_range) e a data de contribuição (contb_receipt_dt, contb_receipt_dt_month e contb_receipt_dt_year).

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Atributos realcionados a origem das contribuições serão muito úteis nesta analise. Entre elas estão:

  • Partido
  • Nome do comite
  • Profisssão do contribuinte
  • Cidade do contribuinte
  • Tipo de eleição (primárias ou gerais)

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Sim. Foram criados as seguintes variaveis:

  • A partir da data, criei colunas com os componentes da data de contribuição (mês e ano)
  • Foram incorporados dados do dataset de CEP (zipcode): cidade, longitude e latitude
  • Foi adicionada uma coluna com faixas dos valores doados.
  • A partir da base de dados dos candidatos (obtido na FEC), foi incorporado o partido do candidato
  • A partir da base de dados dos comites (obtido na FEC), foi incorporado o nome do comite

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Foram realizados tratamentos nos valores de contribuição. Para os valores negativos, foi considerado o valor absoluto. As contribuições zeradas foram eliminadas.

As datas de contribuição carregadas originalmente como caracter, foram convertidas para Date e quebrada em colunas separadas para mes e ano.

Conforme apresentado na seção de tratamento de dados, fiz uma ajuste nos nomes das cidades para eleminar as cidades iguais registradas com grafias diferentes. O mesmo tratamento foi realizado para a ocupação dos contribuintes.

Foi feito também um tratamento para os tipos de eleição inválidos.

Todos os tratamentos foram realizados num script python a parte (tratarDados.py)[tratarDados.py].

Seção de Gráficos Bivariados

Aqui fiz uma analise das distriuição dos valores ao longo do tempo. No primeiro gráfico foi feita uma analise mais ampla por todo o período compreendido no dataset. No segundo reduzi o faixa de valores para o ano de 2016 e foi considerada as contribuições realizadas dentro de 99% da amostragem.

Nesta analise percebemos que os valores doados se iniciaram principalmente no 2º trimestre de 2015 com um média ligeiramente maior, reduzindo a partir de agosto de 2015 e se mantendo com pouca variação até o final de 2016.

Já o valor máximo das contribuições tem uma redução a partir de maio/2016.

Podemos perceber também a presença de faixas horizontais bem definidas para os valores doados com mais frequncias. Estes normalmente são valores arredondados Uma faixa bem definida é a 2700 dolares, que era o limite máximo permitido para pessoas físicas Limites de contribuições - FEC. Considerando eleições primárias e geral, é possível uma doação de $5.400,00 (2.700 para cada). Este limite apresentado não corresponde aos valores máximos doados, necessitando uma pesquisa para entender as regras de contribuições.

A grande parte dessas doações se destinam a Ted Cruz como podemos ver nas analises abaixo.

## 
##   Clinton, Hillary Rodham Cruz, Rafael Edward 'Ted' 
##                         0                       199 
##          Sanders, Bernard          Trump, Donald J. 
##                         0                         0 
##       Carson, Benjamin S.              Rubio, Marco 
##                         6                         2 
##                 Bush, Jeb                Paul, Rand 
##                         3                         0 
##            Fiorina, Carly             Johnson, Gary 
##                         0                         0 
##           Kasich, John R.            Huckabee, Mike 
##                         0                         0 
##    Perry, James R. (Rick)             Walker, Scott 
##                         0                         0 
##               Stein, Jill      Santorum, Richard J. 
##                         0                         0 
##   O'Malley, Martin Joseph  Christie, Christopher J. 
##                         0                         0 
##            McMullin, Evan        Graham, Lindsey O. 
##                         0                         0 
##     Webb, James Henry Jr.             Jindal, Bobby 
##                         0                         0 
##          Lessig, Lawrence         Pataki, George E. 
##                         0                         0 
##      Gilmore, James S III 
##                         0

Estas mesmas faixas podem ser percebidas quando analisamos a os valores de contribuição por candidato, como visto abaixo. Percebe-se também, como já visto no histograma por faixa de valor doado, que a maioria das contribuições estão abaixo de U$ 500,00.

Abaixo temos o comportamente das doações ao longo do tempo para os 7 principais candiatos. Aqui é muito interessante como estão distribuidas as contribuições para os candidatos republicanos. Trump quase não possuia doações nas primárias e passou a ser o destino de grande parte das contribuições republicanas nas eleições gerais.

ggplot(aes(y=cand_nm, x=contb_receipt_dt_month), 
       data=subset(USACampaign, cand_nm %in% top7_cand & election_tp %in% c("P2016", "G2016")))+
  geom_point(alpha = 1/100, position = 'jitter')+
  geom_vline(xintercept = as.Date("2016-05-01"), linetype = 3, color = 'red')+
  theme(axis.text.x = element_text(angle = 45, hjust = 1))+
  scale_x_date(date_breaks = "2 months", 
               date_labels = "%b/%Y")

Nesta sequencia de gráficos vemos as relações entre os 7 candidatos citados anteiormente e os valores de contribuição. Ao contrário do que normalmente seria esperado, o candidato com mais contribuições não é o mesmo com maior valor arrecadado. O candidato Jeb Bush, apesar de possuir menos de 5% das contribuições de Bernard Sanders, conseguiu arrecadar um pouco que este ultimo. No caso especial de Jeb Bush, isto pode ter relação com o fato do Texas ser o seu estado Natal, além da sua relação com os outros 2 ex-presidentes Bush (pai e irmão).

## # A tibble: 7 x 4
##                     cand_nm   qtde    total      media
##                      <fctr>  <int>    <dbl>      <dbl>
## 1   Clinton, Hillary Rodham 203928 23341676  114.46038
## 2 Cruz, Rafael Edward 'Ted' 138799 33971577  244.75376
## 3          Sanders, Bernard  79955  3721950   46.55056
## 4          Trump, Donald J.  77916 16373590  210.14413
## 5       Carson, Benjamin S.  23694  3830273  161.65580
## 6              Rubio, Marco   8984  4909035  546.41970
## 7                 Bush, Jeb   3578  4523399 1264.22557

Um comportamento semelhante pode ser observado quando analisamos os 2 principais partidos (Democratas e Republicanos). Embora os democratas tenham uma quantidade de contribuições maior do que a dos republicanos (feitas principalmente em nome de Hillary Cinton), o valor arreacadado do segundo é quase o dobro do primeiro, corroborando com a analise feita na seção anterior, a partir dos boxplot.

No entanto analisando pelo tipo de eleição, percebe-se que o valor total doado para cada tipo segue a tendencia do histograma apresentado na primeira seção.

Na distribuição das doações entre as cidades do estado do TX, temos Austin em segundo, atrás apenas da cidade de Houston, porém quando analisamos o valor total, Dallas vem em segundo, deixando Austin em terceiro. Isto poderia estar relacionada a renda media de cada cidade mas sem os dados de renda média por município, não é possível uma analise mais apurada.

Por fim fiz uma analise da distribuição geográfica das doações com base nas informações de longitude (lon) e latitude (lat) recolhidas na base de dados de zipcode.

Como esperado, a maioria das doação estão concentradas na parte leste do estado, onde se localizam as cidades com maior quantidade de contribuições: Houston, Austin, Dallas e San Antonio.

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Contribuição no tempo

A partir da analise com base em duas variáveis, notamos que embora exista uma tendencia de crescimento de doações ao longo do tempo, o mesmo não acontece com o valor total recebido, apresentando um comportamento variavel, sem uma tendencia.

Outra variação notada é a de redução do valor máximo das contribuição a partir de maio/2017. Acredito que essa redução se deva a alguma regulamentação para as eleições gerais mas não consegui encontrar dados que me comprovassem essa teoria.

–> Mudança da faixa de valores

Contribuição por candidato

Ao fazermos uma análise mais detalhada por candidato, notamos que o candidato Ted Cruz possui muitas doações acima de U$ 5.400 (199 contra 11 para os demais candidatos). Essas doações elevaram bastante o valor médio de suas doações fazendo com que fosse o candidato com a maior arrecadação, embora Hillary Clinton tivesse muito mais doações a seu favor. Essa maioria se deve ao fato de Clinton ter disputado as prévias e gerais. Quando analisamos apenas as prévias, Ted Cruz foi o candidato com mais doações.

Na distribuição dos valores por candidato, vemos claramente como existe um migração das doações dos republicanos para Donald Trump ao fim das primárias. Ted Cruz foi o candidato preferido do estado e destino da maioria das doações nas primárias, mas com a vitória de Trump dentro do partido republicano, muitas doações passaram a ter Trump como beneficiado.

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Em relação as doações por municípios, foi possível perceber uma relação do volume de doações com as principais cidades do estado.

–> Partidos?

Qual foi o relacionamento mais forte encontrado?

Seção de Gráficos Multivariados

No primeiro gráfico adicinamos a váriavel de cor ao gráfico apresentado na seção anterior para identificar as doações referente as primárias e as gerais. Nele fica ainda mais claro a mudança do destino das doaçoes republicanas para Donald Trump.

No gráfico abaixo analisei o total de doações por mês e partido, destacando os valores de contribuição nas faixas definidas. Focamos nos partidos democrata e republicano e nos anos de 2015 e 2016 por serem os responosáveis pela maioria dos dados.

Podemos perceber como os candidatos democratas tiveram um valor de doação bem superior ao dos candidatos democratas. Em parte, isso se deve ao maior numero de contribuições na faixa mais alta de doações. Vemos que os democratas quase não tiveram doações acima de 2700 reais (apenas 17 contra 1765 dos republicanos)

Uma outra observação importante é da diferença de valores recebidos em 2015. Isso se deve principalmenteas doações recebidas pelo candidato Ted Cruz. Entre os republicanos é possível notar que as principais doações no segundo semestre de 2016 se destinaram a Donald Trump. Esta mudança no destino das doações ocorre após o final das primárias no estado do Texas, umas vez que Ted Cruz, vencedor no estado, não se manteve na disputa da vaga para presidente.

Entre os democratas, nota-se que a maior parte das doação se destinaram a Hillary Clinton.

Ted Cruz e Jeb Bush tiveram um apoio considerável em 2015 com as doações dos texanos. Isto se deve principalmente do Texas ser o estado onde Cruz é senador e o estado natal de Jeb Bush.

##      
##       (0,100] (100,500] (500,2.7e+03] (2.7e+03,1.66e+04]
##   DEM  254082     23229          6815                 17
##   GRE     215       125            24                  0
##   IND     118        73             6                  0
##   LIB     725       509           102                  0
##   REP  193233     47765         19510               1765
##   UNK      20        28            11                  0

Na análise seguinte, fica claro a diferença no valor total de contribuições entre os partidos no ano de 2015 e inicio de 2016. Vemos que nos primeiros meses de 2016, embora a quantidade de contribuições tenha sido semelhantes, o valor arrecadado para os republicanos é bem maior.

No segundo semestre vemos um comportamento interessante. Apesar dos democratas terem conseguido uma quantidade maior de doações, o republicanos receberam um montante maior. No mês de out/2016 fica bem claro que o valor médio das contribuições dos republicanos é maior neste periodo.

Como já haviamos notado nos histogramas, as quantidades de doações do demais partidos são insignificantes para nossa analise, tanto em valor total quanto em quantidade.

No gráfico seguinte, notamos que a maior parte doações acima de 2700 foram no ano de 2015 enquanto as doações de menores valores ocorreram principamente em 2016, o que explica o comportamente citados anteriormente.

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

Um dos atributos derivados que foi de grande importancia na analise foi o relacionado a faixa de valores doados (contb_receipt_amt_range). Com ele foi possível entender melhor o comportanto das doações para os candidatos e partidos ao logo do período avaliado.

Outra observação foi em relação as doações no período. Pelas analises conseguimos notar claramente o comportamento do contribuintes para as primárias e as gerais.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Como citado anteriormente, uma das interações que foram contra minha intuição era a de que o valor total das contribuições fosse diretamente relacionada a quantidade de doações. Em várias analises percemos a influencia do valor médio de contribuição. Em diversos classificações realizadas percebemos que haviam situações em que doações em menores quantidades geravam um maior valor recebido, devido ao valor unitário de cada uma das contribuições.

Um outro interação interessante foi a mudança das contribuições republicanas de Ted Cruz para Trump ao fim das primárias. Ted Cruz era o candidato preferido do estado e foi o principal beneficiário das doações. Com Cruz fora da disputa, as contrinuições dos eleitores do partido migraram para Trump.


Gráficos Finais e Sumário

Primeiro Gráfico

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Descrição do Primeiro Gráfico

O primeiro gráfico foca na distribuição de doações para os 3 candidatos com maior valor recebido em doações. Esta escolha foi feita considerando que entre estes candidatos está o escolhido nas primárias do Texas (Ted Cruz) e os dois candidatos que disputaram a presidência dos EUA em 2016 (Hillary Clinton e Donald Trump).

Esta analise se baseia no valor arrecadado ao longo do período de doação para cada candidato. Nele podemos notar algumas características interesantes após o fim das primárias.

O primeiro é a mudança das doações dos eleitores republicanos de Cruz para Trump. Isso se explica pelo fato que Ted Cruz era o candidato preferido no estado, justficando o enorme volume doado a ele para as primárias e, com a sua saída da disputa, as doações republicana se voltaram para Donald Trump.

O segundo fator é o grande aumento na quantidade de doações a Hillary Clinton na a eleição final. Esse comportamento poderia ser explicado por alguns fatoeres como a efeito “anti Trump” e a reta final da corrida pela presidencia americana.

Quando analisamos os valores em um grafico de barra, vemos facilmente a influencia das doações de maiores valores no montante total arrecadado por Ted Cruz.

Segundo Gráfico

## # A tibble: 15 x 4
##           city  qtde      total    media
##         <fctr> <int>      <dbl>    <dbl>
##  1     HOUSTON 71294 19233415.5 269.7761
##  2      DALLAS 41118 12856245.9 312.6671
##  3      AUSTIN 57745  8261189.4 143.0633
##  4 SAN ANTONIO 30240  4623954.7 152.9086
##  5  FORT WORTH 16307  2851992.3 174.8937
##  6      SPRING 12167  2738123.9 225.0451
##  7     MIDLAND  3998  1946406.9 486.8451
##  8       PLANO  9603  1361485.4 141.7771
##  9    BEAUMONT  2599   949017.4 365.1471
## 10     EL PASO  7763   877149.5 112.9910
## 11     MCALLEN  2368   863173.7 364.5159
## 12  SUGAR LAND  5102   859674.7 168.4976
## 13      FRISCO  4200   818825.0 194.9583
## 14    AMARILLO  3755   779797.2 207.6690
## 15        KATY  6063   779087.4 128.4987

Descrição do Segundo Gráfico

Este gráfico apresenta as 10 maiores cidades em valor de doação entre os 7 candidatos com mais contribuições. Nesta analise temos algumas observações inesperadas. Por exemplo, para o candidato Marco Rubio, a cidade de Houston teve a maior quantidade de doações, porém Dallas teve um valor maior total de contribuições.

Vemos que Houston foi a principal fonte de doações para todos os candidatos, embora não tenha sido a principal para Bernie Sanders (Austin teve maior arrecadação) e para Marco Rubio (Dallas).

Vemos também que embora Clinton tenha tido mais doações em cidades como Dallas e Houston, o montante total é menor do que aquela recebida por Ted Cruz. O mesmo é percebido pra Bernard Sanders em relação a Austin.

As doações recebeidas por Ted Cruz em Houston, representam mais do dobro da segunda cidade em doações.

Terceiro Gráfico

## 
##  DEM  REP 
##  104 1194

Descrição do Terceiro Gráfico


Reflexão

No início da projeto eu tinha em mente fazer utilização apenas dos dados disponíveis no dataset. A partir dele comecei a fazer a análise das distribuição de valores do estado de NY. Neste ponto me deparei com as questões citadas no início do documento, que me fizeram mudar minha análise para os dados de outro estado, o Texas.

Durante as primeiras análises percebi que muitos dados necessitavam de trartamento e então resolvi preparar um script em Python para realizar alguns ajustes. Outra observação feita com inicio do trabalho, foi que a necessidade de mais dados para análise e exclusão de algumas informações desnecessárias no dataset.

Um ponto importante que notei é que só consegui evoluir no trabalho a partir do momento que deixei claras quais eram os pontos que eu prentendia verificar. Antes disso era muito complicado encontrar quais gráficos deveriam ser feitos para a sequencia do trabalho.

Dificuldades encontradas

Uma dificuldade que tive foi de encontrar as regras sobre o limite de doações para os candidatos. Embora tenha encontrado a definição de limites de 2.700 por candidato, foi possível notar diversas contribuições acima deste valor, especialmente nas quantias de $5.400 e $10.800.

Encontrei grandes dificuldades em se trabalhar com os mapas, principalmente devido as divergencias de dados para cruzamento de informações entre as base de mapa e o dataset das eleições, em especial na normalização dos nomes do munícipios.

Conclusão

Apesar das dificuldades encontradas para a execução do trabalho, acredito que eu tenho obtido sucesso nas análises realizadas, conseguindo identificar o comportamento das doações realizadas na campanha presidencial de 2016 para o estado do Texas.

Futuros trabalhos

Para um futuro trabalho, seria interessante um estudo mais detalhado, onde tivessemos informações de renda e sexo dos contribuintes, bem como renda média da população nas cidades. Essa análise poderia apontar uma tendência nas doações realizadas em relação as preferencias por partido ou candidato.

Referências

Abaixo o link para referências usadas para este trabalho